Tècnica 1: Heatmap
Descripció de la tècnica
La tècnica és el heatmap, una tècnica on es representen gràficament dades numèriques en una matriu amb diferents colors en funció dels valors numèrics corresponents.
És una tècnica que permet identificar ràpidament patrons i relacions entre variables en un conjunt de dades donat.
El primer ús conegut del heatmap va ser l’any 1873, quan un estadístic francès anomenat Touissant Loua va presentar diferents estadístiques dels districtes de París usant colors.
D’exemples d’aplicació hi ha molts, ja que es pot utilitzar en molts àmbits, com la genètica, dades meteorològiques o finances, entre d’altres.
El heatmap s’utilitza principalment amb dades quantitatives, on les dades organitzades en una matriu on es tinguin les observacions a les files i les variables a les columnes.
Es molt recomanable que les dades estiguin normalitzades per poder comparar variables que estiguin en el mateix rang.
En quant a les limitacions, els datasets amb unes dimensions elevades no es podran interpretar ni representar correctament. A més, tampoc estan recomanats per treballar amb dades categòriques. Finalment, la seva interpretació també pot ser complicada segons l’escala de color utilitzada.
Visualització 2: dataset mtcars
Visualització 3: dades d’expressió genètica
Amb
la llibreria de Bioconductor GEOquery i el dataset
d’expressió genètica GSE10072.
Diagrama de Voronoi
Descripció de la tècnica
El diagrama de Voronoi agafa el nom del matemàtic rus Georgy Voronoi pels seus treballs l’any 1908.
Aquesta tècnica consisteix en dividir l’espai en regions basades en la proximitat a un conjunt de punts anomenats “llavor” o “generador”. Tots els punts d’una regió del diagrama estaran més propers al punt “llavor” de la seva regió que a qualsevol altre llavor.
Com a exemples d’aplicació, podríem dir usos tan variats com l’ecologia, biologia, disseny de xarxes o planificació urbana.
És especialment apta per dades espacials i es poden utilitzar tant dades quantitatives com qualitatives.
És necessari que les dades s puguin representar com a punts en l’espai, ja que la tècnica es basa en la proximitat espacial entre els punts.
Pel que fa a les limitacions, la visualització pot ser complicada si tenim massa observacions. També són complexos d’interpretar a primera vista. A més, com ja hem comentat, està una mica limitada a dades espacials.
Visualització 1: Ciutats espanyoles amb més de 50000 habitants.
Dataset
world.cities de la llibreria maps
Visualització 2: Terratrèmols al món amb magnitud igual o superior a 4 en el darrer any
Dades del United States Geological Survey. L’arxiu utilitzat és aquest.
Visualització 3: Aeroports als Estats Units
El
dataset utilitzat és nycflights13 del paquet
homònim.
Tile grid map
Descripció de la tècnica
El tile grid map és una tècnica de visualització que consisteix en dividir un mapa en quadrícules de la mateixa mida i assignar a cada quadrícula o tile un color determinat en funció d’una variable determinada. L’origen concret és desconegut, però és una tècnica recent, pròpia de l’era de la computació.
És molt útil per a veure patrons a les dades independentment de les dimensions espacials de l’observació que volem analitzar a l’hora que mantenim la informació geogràfica.
Com a exemples d’aplicació, tenim, per exemple, visualització de dades electorals, per mostrar estadístiques de salut pública o per dades poblacionals en diferents regions.
La tècnica s’utilitza per a la visualització de dades espacials tant amb dades quantitatives com qualitatives. Seran necessàries dades espacials per representar cada cel·la.
Limitacions: dependrà del nombre de cel·les que vulguem representar. Si tenim moltes observacions, perdrem detall. Una altra limitació és que necessitem dades espacials per cada observació. Costarà també avaluar apropiadament les diferències entre cel·les llunyanes.
Visualització 1: Percentatge de vot republicà per estat a les eleccions del 2020
Les dades electorals utilitzades es troben aquí.
Les dades geomètriques per cada estat han sigut extretes de la funció
governor (paquet
tilemaps).
Visualització 2: Morts per la COVID-19 a Europa
Les dades de COVID són de la
OMS. Les dades per crear les tiles són de WorldTileGrid.
Visualització 3: Creixement del PIB (%) l’any 2020
Les
dades econòmiques són d’aquest dataset (gdp_growth.csv) que es troba a
Kaggle. Les dades de les tiles tornen a ser de
WorldTileGrid.